概率分布可分为两种:离散分布用于处理具有有限值的随机变量,如投掷硬币和伯努利分布的情形。离散分布是由所谓的概率质量函数(PMF)定义的,连续分布用于处理连续的(理论上)有无限数量的值的随机变量。想想用声音传感器测量的速度和加速度。连续分布是由概率密度函数(PDF)定义的。
这两种分布类型在数学处理上有所不同:通常连续分布使用积分 $\int$ 而离散分布使用求和$\sum$。以期望值为例:
$E[X]=\sum_{x} x P_{\text {discrete }}(x)$, if $X \sim P_{\text {discrete }}$ $E[X]=\int_{x} x P_{\text {continuous }}(x) d x$, if $X \sim P_{\text {continuous }}(x)$
下面我们将详细介绍各种常见的概率分布类型。离散型随机变量分布常见的有伯努利分布(Bernoulli Distribution)、二项分布(Binomial Distribution)、泊松分布(Poisson Distribution)等,而常见的连续型随机变量分布包括均匀分布(Uniform Distribution)、指数分布(Exponential Distribution)、正态分布等。
在解释各种分布之前,我们先看看常见的数据类型有哪些,数据类型可分为离散型和连续型。
离散型数据:数据只能取特定的值,比如,当你掷一个骰子的时候,可能的结果只有 1,2,3,4,5,6 而不会是 1.5 或者 2.45。
连续型数据:数据可以在给定的范围内取任何值,给定的范围可以是有限的或无限的,比如一个女孩的体重或者身高,或者道路的长度。一个女孩的体重可以是 54 kg,54.5 kg,或 54.5436kg。
最简单的离散型随机变量分布是伯努利分布.一个伯努利分布只有两个可能的结果,记作 1(成功)和 0(失败),只有单次伯努利试验。设定一个具有伯努利分布的随机变量 X,取值为 1 即成功的概率为 $p$,取值为 0 即失败的概率为 $q$ 或者 $1-p$。
若随机变量 X 服从伯努利分布,则概率函数为:
$$ \boldsymbol{P}(\boldsymbol{x})=\left\{\begin{array}{r} 1-\boldsymbol{p}, x=0 \\ \boldsymbol{p}, x=1 \end{array}\right. $$成功和失败的概率不一定要相等。比如当我和一个运动员打架的时候,他的胜算应该更大,在这时候,我的成功概率是 0.15,而失败概率是 0.85。
期望值是指一个概率分布的平均值,对于随机变量 X,对应的期望值为:$E(X) = 1*p + 0*(1-p) = p$,而方差为 $V(X) = E(X^2) – [E(X)]^2 = p – p^2 = p(1-p)$
实际上还有很多关于伯努利分布的例子,比如明天是晴天还是雨天,这场比赛中某一队输还是赢,等等。
回到掷硬币的案例中,当掷完第一次,我们可以再掷一次,也就是存在多个伯努利试验。第一次为正不代表以后也会为正。那么设一个随机变量 X,它表示我们投掷为正面的次数。$X$ 可能会取什么值呢?在投掷硬币的总次数范围内可以是任何非负整数。
如果存在一组相同的随机事件,即一组伯努利试验,在上例中为连续掷硬币多次。那么某随机事件出现的次数即概率服从于二项分布,也称为多重伯努利分布。
任何一次试验都是互相独立的,前一次试验不会影响当前试验的结果。两个结果概率相同的试验重复 n 次的试验称为多次伯努利试验。二项分布的参数为 $n$ 和 $p$,$n$ 是试验的总次数,$p$ 是每一次试验的成功概率。
根据以上所述,一个二项分布的性质为:
二项分布的数学表达式为: $$ \boldsymbol{P}(\boldsymbol{x})=\frac{n !}{(n-x) ! x !} p^{x} q^{n-x} $$
二项分布的平均值表示为 $\mu=np$,而方差可以表示为 $Var(X) = npq$。
如果你在一个呼叫中心工作,一天内会接到多少次呼叫呢?多少次都可能!在呼叫中心一天能接到多少次呼叫可以用泊松分布建模。这里有几个例子:
现在你可以按相同的方式构造很多其它的例子。泊松分布适用于事件发生的时间和地点随机分布的情况,其中我们只对事件的发生次数感兴趣。泊松分布的主要特点为如下:
在泊松分布中定义的符号有:
-$\lambda$是事件的发生率;
设 $X$ 是一个泊松随机变量,那么 $X$ 的概率分布称为泊松分布。以µ表示一个时间间隔 $t$ 内平均事件发生的次数,则$\mu=\lambda t$;
$X$ 的概率分布函数为:
$$P(X=x)=e^{-\mu} \frac{\mu^{x}}{x !}\quad x=0,1,2, \ldots \ldots$$泊松分布的均值和方差为:
假设我们在从 $a$ 到 $b$ 的一段线段上等距地选择一个区间的概率是相等的,那么概率在整个区间 $[a,b]$ 上是均匀分布的,概率密度函数也不会随着变量的更改而更改。均匀分布和伯努利分布不同,随机变量的取值都是等概率的,因此概率密度就可以表达为区间长度分之一,如果我们取随机变量一半的可能值,那么其出现的概率就为 1/2。
假定随机变量 X 服从均匀分布,那么概率密度函数为:
$$ f(x)=\frac{1}{b-a} $$for $-\infty<\mathrm{a} \leq \mathrm{x} \leq \mathrm{b}<\infty$
均匀分布的概率分布图呈现为一个矩形,这也就是均匀分布又称为矩形分布的原因。在均匀分布中,$a$ 和 $b$ 都为参数,也即随机变量的取值范围。
服从均匀分布的随机变量 $X$ 也有均值和方差,它的均值为 $E(X) = (a+b)/2$,方差为 $V(X) = (b-a)^2/12$
标准均匀分布的密度函数参数 a 取值为 0,b 取值为 1,因此标准均匀分布的概率密度可以表示为:
$$ \boldsymbol{f}(\boldsymbol{x})=\left\{\begin{array}{l} \mathbf{1}, 0 \leq x \leq 1 \\ \mathbf{0}, \text { otherwise } \end{array}\right. $$现在我们再次考虑电话中心案例,那么电话间隔的分布是怎么样的呢?这个分布可能就是指数分布,因为指数分布可以对电话的时间间隔进行建模。其它案例可能还有地铁到达时间的建模和空调设备周期等。
在深度学习中,我们经常会需要一个在 x=0 处取得边界点 (sharp point) 的分布。为了实现这一目的,我们可以使用指数分布(exponential distribution):
$$ \boldsymbol{f}(\boldsymbol{x})=\left\{\begin{array}{l} \mathbf{\lambda e^{-\lambda x}}, x \ge 0 \\ \mathbf{0}, \text { otherwise } \end{array}\right. $$其中 $\lambda>0$ 为概率密度函数的参数。随机变量 $X$ 服从于指数分布,则该变量的均值可表示为 $E(X)=1 / \lambda$ 、 方差可以表示为 $\operatorname{Var}(X)=(1 / \lambda)^{\wedge} 2$ 。如下图所示,若 $\lambda$ 较大,则指数分布的曲线下降地更大,若 $\lambda$ 较小, 则曲线越平坦。
实数上最常用的分布就是正态分布(normal distribution),也称为高斯分布(Gaussian distribution)。因为该分布的普遍性,尤其是中心极限定理的推广,一般叠加很多较小的随机变量都可以拟合为正态分布。正态分布主要有以下几个特点:
正态分布和伯努利分布有很大的不同,然而当伯努利试验的次数接近于无穷大时,他们的分布函数基本上是相等的。
若随机变量 $X$ 服从于正态分布,那么 $X$ 的概率密度可以表示为:
$$ f(x)=\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{1}{2}\left(\frac{x-u}{\sigma}\right)^{2}} \quad -\infty<x<\infty . $$随机变量 $X$ 的均值可表示为 $E(X) = \mu$、方差可以表示为 $Var(X) = \sigma^2$。其中期望$\mu$和标准差$\sigma$为高斯分布的参数。
伯努利分布和二项分布的关系
泊松分布和二项分布的关系.以下条件下,泊松分布是二项分布的极限形式:
正态分布和二项分布的关系 以及正态分布和泊松分布的关系
以下条件下,正态分布是二项分布的一种极限形式:
参数 $\lambda \to \infty$的时候,正态分布是泊松分布的极限形式。
指数分布和泊松分布的关系
如果随机事件的时间间隔服从参数为 $\lambda$的指数分布,那么在时间周期 $t$ 内事件发生的总次数服从泊松分布,相应的参数为 $\lambda t$。
参考资料